查看原文
其他

估计基因组大小, Kmer survey还是Flow Cytometry?

生信阿拉丁 生信阿拉丁 2022-04-26

  前   言  


在denovo基因组测序中,通常会先预估基因组大小,杂合度等信息,根据基因组大小和复杂度来判断测序数据的深度,组装基因组的难易程度等。


预测基因组大小的方法主要有两种,基于Kmer频率的survey分析和基于流式细胞术(Flow Cytometry)的实验方法。


流式细胞术是一种经济高效、相对准确且快速的植物基因组大小估计的实验技术。与 DNA 定量结合的荧光染料对完整细胞核进行染色来估计 DNA 量。在木本植物中高浓度的酚类化合物,可能会导致化学计量误差。


基因组大小也可以通过 Illumina 测序数据的 k-mer 分析进行估计。许多用于生成 k-mer 频率的工具(例如,KAT 、Jellyfish)和基于 k-mer 的基因组大小估计(BBNorm 、Genomescope、FindGSE) 已开发。


这里通过在南非红茶中(Mgwatyu et al., 2020)进行的分析,简单对比一下Kmer survey和Flow Cytometry预估基因组大小的结果对比及影响因素。


流式细胞术估计基因组大小影响因素 


使用流式细胞术估计了八种不同生长类型的从南非红茶基因组大小。测试了四种细胞核分离缓冲液、三种植物组织和四种用于从远处收集的南非红茶叶材料的运输介质,来揭示这些因素对基因组大小的影响。

1.缓冲液

用南非红茶幼苗测试了四种细胞核分离缓冲液(Partec buffer, LB01 with 5x Triton X-100 (LB01-5x), LB01 with 10x Triton X-100 (LB01-10x)和Woody Plant Buffer (WPB))在流式细胞术估计基因组大小中的适用性,使用 WPB 获得了最佳结果。

2.组织类型

使用 WPB 分离和染色来自胚根和子叶的细胞核,两个月南非红茶幼苗的新鲜和干燥叶子。使用蚕豆 (2C = 26.66 pg) 作为内参考估计基因组大小。植物组织类型显着影响DNA 含量的估计, 对于,胚根的值 ( 2.54 pg) 显着低于子叶 (2.64 pg) 和叶子 (2.69 pg), 4C 峰在胚根中比在子叶和叶中更突出。这些组织的计算出的 1C 基因组大小等于 1.24 ± 0.01 Gbp、1.29 ± 0.02 Gbp。

3.保存运输介质

流式细胞术一般选择新鲜植物材料, 当在偏远地区收集样品时,必须确保适合的其运输介质, 测试了四种保存介质:

  • 无菌水

  • 5% 甘油溶液

  • 10% 甘油溶液

  • 硅胶

其中硅胶最适合样本保存。不同地点收集的南非红茶植物二氧化硅干燥叶样本的流式细胞术基因组大小估计。来自大田植物干叶样本在基因组大小估计方面表现出最高的变异性,范围从 1.16 Gbp 到 1.42 Gbp。图1展示了不同生长类型的叶片使用流式进行基因组大小的差异。

图1 使用不同生长类型的南非红茶叶片进行流式细胞术基因组大小估计 (RC = Red Commercial (n = 10), RE = Red Escaped (n = 5), RW = Red Wild (n = 6), WT =Wupperthal Type (n = 9), TT = Tree Type (n = 5), GS = Grey Sprouter (n = 5), NiS = Nieuwoudtville Sprouter (n = 11), NS = Northern Sprouter (n = 5), AT = Algeria Type (n = 5), NT = Nardouwsberg Type (n = 4))


 Kmer频率估计基因组大小 


研究了四种方法(BBNorm、GenomeScope 和 FindGSE)和常用的基因组大小计算公式。对于每个程序,研究了

  • iSeq 序列子集与完整数据集(MiSeq 和 HiSeq 数据)

  • k-mer 大小

  • 原始数据与质控处理数据。

GenomeSope(v1 和 v2)的表现受参数设置的强烈影响:基因组大小估计从 0.51 Gbp 到 1.01 Gbp。最有影响的参数是最大 k-mer 覆盖的cutoff-mer 覆盖率 (CovMax)。在较低的 CovMax 设置下差异更大,范围从 1k 时的 0.17 Gbp、10k 时的 0.11 Gbp 到 900k 时的 0.01 Gbp。对于 GenomeScope,使用 MiSeq 子集与完整数据集以及原始数据与质控处理数据的影响很小 (<0.10 Gbp)。 


FindGSE 预测南非红茶基因组大小为 1.06 ± 0.03 Gbp(所有测试参数的平均值)。使用该程序,MiSeq 子集与完整数据集中相应值之间的差异很小(范围从 0.01 Gb 到 0.09 Gb)。增加 k-mer 大小只会略微增加基因组大小估计(最大 0.04 Gbp),原始数据和质控处理数据之间的差异也很小(最大 0.04 Gbp)。


BBNorm 估计南非红茶基因组大小为 1.08 ± 0.03 Gbp。MiSeq 子集和完整数据集之间的差异很小)。k-mer 大小的增加仅使基因组大小估计值增加了 0.05 Gbp。质控处理数据和原始数据集之间的差异最大为 0.04 Gbp,k-mer 大小对南非红茶基因组大小影响不明显。

表 1. 使用Illumina 测序数据对南非红茶基因组大小估计。


 总  结 


植物基因组大小的估计仍然是一项具有挑战性的工作。除上面描述的因素,不同植物化合物会影响染色剂结合,造成流式细胞术对基因组大小高估。而基于 k-mer 分析的值可能会受数据质量、软件及参数设置的影响,因此通过两种方式评估的基因组大小经常存在差异,对此应正确看待,并分析造成差异的具体原因。


 参 考 文 献 


Mgwatyu, Y., Stander, A.A., Ferreira, S., Williams, W., and Hesse, U. (2020). Rooibos (Aspalathus linearis) Genome Size Estimation Using Flow Cytometry and K-Mer Analyses. Plants (Basel) 9.


作者:May
审稿:童蒙
编辑:angelica

往期回顾


当红辣子鸡-空间转录组与单细胞转录组的整合分析(下篇)

利用Biopython来进行序列比对

使用python批量设计引物

MAGMA软件实现gene-based & gene-set-based关联分析

认识单细胞分析中的各种数据结构


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存